Extraction des « mots » en fonction :
Beaucoup de bruit :
token : chaîne de caractères délimitée par des espaces
Exemple :
Quand le mystère est trop impressionnant, on n’ose pas désobéir
Exercice : compter les bigrammes dans la phrase suivante :
Longtemps je me suis couché de bonne heure
Permet de faire des requêtes dans Google Books :
Exemple : « vélocipède » vs « vélo » vs « bicyclette »
→ L’évolution des fréquences relatives des n-grammes dans le corpus
« the United States are » ou « the United States is »
Utiliser les opérateurs * et / :
ouvrier,travailleur,(prolétaire*10)
(ouvrier/10),(travailleur/10),prolétaire
Parenthèses obligatoires !
Sans surprise avec + et - :
Avec _{CATEGORIE}, par exemple salarié_NOUN
| Code | Catégorie |
|---|---|
| NOUN | nom |
| VERB | verbe |
| ADJ | adjectif |
| ADV | adverbe |
| PRON | pronom |
| DET | déterminant |
| ADP | adposition |
| NUM | chiffre |
| CONJ | conjonction |
| PRT | particule |
Pour les linguistes : c’est un sous-ensemble des Universal Part of Speech.
Un autre usage de * : remplacer n’import quel mot.
Exemple : une colère * donne les fréquences de trigrammes dont les deux premiers mots sont « une » et « colère »
y => x permet de savoir à quelle fréquence un mot x (« tigré », « roux » ou « noir ») modifie un mot y (« chat »)
chat=>noir,chat=>roux,chat=>tigré
Le concept de dépendance syntaxique est en fait plus vaste que ça : regardez par exemple parle=>je,je parle,je * parle.
Voir la doc
_INF : formes fléchies d’un verbe »> ex : manger_INF* avant une catégorie grammaticale : remplace n’importe quel mot de cette catégorie*_ADJ renvoie n’importe quel adjectif (les 10 plus fréquents sont renvoyés)_START_ : début de la phrase_END_ : fin de la phrase_ROOT_ : racine de l’arbre de dépendance de la phrasePour les versions précédentes de ce cours que nous avons construit au fil des années, merci à Isabelle Tellier, Kim Gerdes, Serge Fleury, Yoann Dupont, Pablo Ruiz Fabo, Marine Delaborde et Mathilde Regnault.